EVENTO
Otimização de Dataflows em Frameworks de Big Data por meio do Reúso de Dados
Tipo de evento: Defesa de Dissertação de Mestrado
O uso de arcabouços de Big Data tem aumentado nos últimos anos. Esses arcabouços representam um avanço no que tange o apoio à execução paralela e distribuída de aplicações. Essas aplicações são frequentemente compostas de diversas atividades, gerando assim um dataflow, que em geral processa um grande volume de dados. Por mais que os arcabouços sejam otimizados para explorar localidade dos dados e evitar transferências desnecessárias no ambiente distribuído, tais otimizações são focadas em execuções isoladas, i.e. (não consideram aproveitar dados de execuções anteriores). Esse tipo de reuso de dados pode acelerar dataflows, uma vez que o dado não precisa ser processado novamente caso já tenha sido produzido por uma execução anterior do mesmo dataflow. Esta dissertação apresenta uma abordagem para o compartilhamento de dados gerados nos dataflows. Discutimos e implementamos uma arquitetura que permite que múltiplas execuções de dataflows possam compartilhar resultados intermediários, reduzindo tempo de execução. Avaliamos a abordagem com dataflows reais de processamento de dados da COVID-19.Para assistir acesse:meet.google.com/shs-uyar-xkc
Data Início: 22/05/2023 Hora: 10:00 Data Fim: 22/05/2023 Hora: 13:00
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Virtual
Aluno: Gustavo Decarlo Ferreira Secchim - - LNCC
Orientador: Daniel Cardoso Moraes de Oliveira - Universidade Federal Fluminense - UFF Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Participante Banca Examinadora: Luiz Manoel Rocha Gadelha Júnior - German Cancer Research Center - DKFZ Maria Cristina Silva Boeres - Laboratório de Grid, Instituto de Computação, Universidade Federal Fluminense - Patrick Valduriez - INRIA - FRA
Suplente Banca Examinadora: Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC